Incrémentation lexicale dans les textes : une auto-organisation (Lexical Incrementation within Texts: a Self-Organization) [in French]
نویسنده
چکیده
RESUME Nous proposons une étude dynamique du lexique, en décrivant la manière dont il s’organise progressivement du début à la fin d’un texte. Pour ce faire, nous nous focalisons sur la co-occurrence généralisée, en formant un graphe qui représente tous les lemmes du texte et synthétise leurs relations mutuelles de co-occurrence. L’étude d’un corpus de 40 textes montre que ces relations évoluent d’une manière auto-organisée : la forme – et l’identité – du graphe de co-occurrence restent stables après une phase d’organisation terminée avant la 1ère moitié du texte. Ensuite, il n’évolue plus : les nouveaux mots et les nouvelles relations de co-occurrence s’inscrivent peu à peu dans le réseau, sans modifier la forme d’ensemble de la structure. La relation de co-occurrence généralisée dans un texte apparaît donc comme la construction rapide d’un système, qui est ensuite assez souple pour canaliser un flux d’information sans changer d’identité.
منابع مشابه
A Model of Vocabulary Partition
The model proposed here is used to describe the vocabulary of a corpus. It is divided into two groups: general vocabulary which is used whatever the circumstances and several local (or 'specialized') vocabularies, each of which is used in only one part of the corpus. General words may appear everywhere in the text and their increase with corpus length can be estimated with Muller's formula. In ...
متن کاملDire n'est pas concevoir
Résumé : Nous verrons dans le cadre de cet article que l’extraction de connaissances à partir de textes relève avant tout de la linguistique textuelle dont un des principes est l’incomplétude des textes ; et qu’il est difficile de prendre en considération les connaissances extralinguistiques nécessaires à leur compréhension. L’utilisation de figures de style, telles que la métonymie et la synec...
متن کاملIdentification of Arabic/French Handwritten/Printed Words using GMM-Based System
The discrimination between languages is one of the first steps in the problem of automatic documents text recognition. In many documents, such as bank checks and application forms, printed and handwritten texts are mixed. In this paper, an automatic identification system of Arabic and French words in both handwritten and printed script based on Gaussian Mixture Models (GMMs) was presented. A fi...
متن کاملToward an amazigh language processing
Since antiquity, the Amazigh heritage is expanding from generation to generation. In the aim of safeguarding it from being threatened of disappearance, it seems opportune to equip this language of necessary means to confront the stakes of access to the domain of New Information and Communication Technologies (ICT). In this context, and in the perspective to build tools and linguistic resources ...
متن کاملAbout the Self-stabilization of a Virtual Topology for Self-organization in Ad Hoc Networks
Ad hoc networks are spontaneous wireless networks without any wired infrastructure, composed of mobile terminals. We assume that nodes must collaborate to set up an efficient network, such a collaboration requiring a self-organization in the network. We proposed a virtual structure to organize the network: the backbone is a connected structure helping to optimize the control traffic flooding. C...
متن کامل